【TASLP】Audio-Visual Cross-Attention Network for Robotic Speaker Tracking
Audio-Visual Cross-Attention Network for Robotic Speaker Tracking
分享人:李一迪
研究方向:视听定位与跟踪
论文题目:Audio-Visual Cross-Attention Network for Robotic Speaker Tracking
论文作者:Xinyuan Qian, Zhengdong Wang, Jiadong Wang, Guohui Guan, Haizhou Li
作者单位:北京科技大学、香港中文大学(深圳)、新加坡国立大学
论文摘要:视听信号可以联合用于机器人感知,因为它们互为补充。这种多模态感官融合具有明显的优势,特别是在嘈杂的声学条件下。说话者定位作为一项重要的机器人功能,传统上是作为信号处理问题来解决的,现在更多地寻找深度学习解决方案。关键问题是如何有效地融合视听信号。说话者跟踪不仅比说话者定位更理想,而且可能更准确,因为它探索说话者的时间运动动态以进行平滑的轨迹估计。然而,由于缺乏大型注释数据集,说话人跟踪并没有像说话人定位那样得到很好的研究。在本文中,作者研究了机器人扬声器的到达方向(DoA)估计,重点是视听融合和跟踪方法。本文提出了一种跨模态注意力融合(CMAF)机制,该机制探索自注意力以学习模态内的时间依赖性,以及用于模态间对齐的交叉注意力机制。作者还在机器人平台上收集了真实的数据集来支撑这项研究。实验结果表明,本文提出的网络在噪声条件下优于最先进的视听定位和跟踪方法,在SNR=−20dB时精度分别提高了5.82%和3.62%。
原文链接: